Average word length | # of sentences | Source |
---|---|---|
11.13 | 10 | http://os.wikipedia.org/wiki/Гамсун,_Кнут |
11.30 | 20 | http://os.wikipedia.org/wiki/Гæлуатæ |
11.34 | 18 | http://os.wikipedia.org/wiki/Масайтæ |
11.48 | 11 | http://os.wikipedia.org/wiki/Челæхсаты_Серги |
11.53 | 13 | http://os.wikipedia.org/wiki/Сталины_преми |
11.56 | 37 | http://os.wikipedia.org/wiki/Фыццаг_мыхуыргонд_чиныг_иронау |
11.59 | 12 | http://os.wikipedia.org/wiki/Буль,_Пьер |
11.60 | 10 | http://os.wikipedia.org/wiki/Мырзагантæ |
11.63 | 39 | http://os.wikipedia.org/wiki/Хуыцау |
11.67 | 11 | http://os.wikipedia.org/wiki/Æфсати |
11.69 | 21 | http://os.wikipedia.org/wiki/Царциатæ |
11.74 | 13 | http://os.wikipedia.org/wiki/Нас |
11.75 | 13 | http://os.wikipedia.org/wiki/Хъазиты_Мелитон |
11.78 | 10 | http://os.wikipedia.org/wiki/Канадæ |
11.80 | 24 | http://os.wikipedia.org/wiki/Къуымбил |
11.92 | 34 | http://os.wikipedia.org/wiki/Зруджы_Майрæм |
11.92 | 12 | http://os.wikipedia.org/wiki/Тедеты_Тони |
11.95 | 13 | http://os.wikipedia.org/wiki/Хъама |
11.97 | 17 | http://os.wikipedia.org/wiki/Хацырты_Сергей |
11.98 | 14 | http://os.wikipedia.org/wiki/Хъæлдзæг_нымæт |
11.99 | 52 | http://os.wikipedia.org/wiki/Дзимыргом |
12.07 | 12 | http://os.wikipedia.org/wiki/Гизæйы_Егъау_Сфинкс |
12.13 | 10 | http://os.wikipedia.org/wiki/Хъайтыхъты_Азæмæт |
12.15 | 11 | http://os.wikipedia.org/wiki/Зилгæ |
12.16 | 28 | http://os.wikipedia.org/wiki/Сиддхартха_Гаутама |
12.19 | 14 | http://os.wikipedia.org/wiki/Финлянди |
12.19 | 15 | http://os.wikipedia.org/wiki/Бырсæг_уæйгуытæ |
12.22 | 27 | http://os.wikipedia.org/wiki/Гитлер,_Адольф |
12.22 | 23 | http://os.wikipedia.org/wiki/Олимпиус_инферно_(фильм) |
12.22 | 10 | http://os.wikipedia.org/wiki/Иразиев,_Эльдар_Изамутдины_фырт |
Average word length | # of sentences | Source |
---|---|---|
15.31 | 11 | http://os.wikipedia.org/wiki/Алфавит |
14.69 | 15 | http://os.wikipedia.org/wiki/Черноземьейы_хъабых |
14.68 | 16 | http://os.wikipedia.org/wiki/Æнæхин?_Тынг_æнæхин |
14.57 | 10 | http://os.wikipedia.org/wiki/НормаСахар |
14.39 | 11 | http://os.wikipedia.org/wiki/Упсала-Цирк |
14.39 | 12 | http://os.wikipedia.org/wiki/Бæллицмæ_къахдзоныгътæ |
14.37 | 16 | http://os.wikipedia.org/wiki/Мазарини,_Джулио |
14.33 | 13 | http://os.wikipedia.org/wiki/Ирон_национ_ахуырады_концепци |
14.30 | 10 | http://os.wikipedia.org/wiki/Адыл-Гирей_Кешев |
14.29 | 11 | http://os.wikipedia.org/wiki/Хорзы_импульс |
14.10 | 23 | http://os.wikipedia.org/wiki/Хуссар_Ирыстоны_паддзахадон_университет |
14.08 | 12 | http://os.wikipedia.org/wiki/Фæрнион_Къоста |
14.06 | 13 | http://os.wikipedia.org/wiki/Экокластер |
14.04 | 23 | http://os.wikipedia.org/wiki/Тменатæ |
14.04 | 12 | http://os.wikipedia.org/wiki/Тукай,_Габдулла |
14.03 | 105 | http://os.wikipedia.org/wiki/Византияйы_импери |
14.01 | 12 | http://os.wikipedia.org/wiki/Соловьёв,_Леонид_Василийы_фырт |
14.00 | 12 | http://os.wikipedia.org/wiki/Арешперан |
13.99 | 21 | http://os.wikipedia.org/wiki/Базоркин,_Идрис_Муртузы_фырт |
13.96 | 17 | http://os.wikipedia.org/wiki/Токаты_Гогки |
13.92 | 10 | http://os.wikipedia.org/wiki/Камерун |
13.90 | 46 | http://os.wikipedia.org/wiki/Андтæ |
13.90 | 10 | http://os.wikipedia.org/wiki/Мытищи |
13.86 | 12 | http://os.wikipedia.org/wiki/Географион_координатæтæ |
13.82 | 24 | http://os.wikipedia.org/wiki/Куыстуарзты_хæдзар |
13.80 | 11 | http://os.wikipedia.org/wiki/Къахет |
13.79 | 24 | http://os.wikipedia.org/wiki/Гамсахурдиа,_Звиад |
13.73 | 14 | http://os.wikipedia.org/wiki/Кæфдзæст |
13.72 | 13 | http://os.wikipedia.org/wiki/Чавчавадзе,_Александр |
13.72 | 29 | http://os.wikipedia.org/wiki/Болгари |
The problem addressed in this subsection (as well as the results) is similar to 6.4.1.1, but now we focus on average word length instead of average sentence length.
Measuring average word length strongly depends on tokenization. The usual tokenization might split the string “28.06.2005” into five parts “28 . 06 . 2005” of average length two. To avoid this, the number of words is counted as 1 + (number of blanks in the sentence).
select round(avg(length(sentence) / (1+ length(sentence) - length(replace(sentence," ","")))),2) as le, count(sentence) as cnt, source from sentences s, inv_so i, sources so where s.s_id=i.s_id and i.so_id=so.so_id group by source having cnt>=10 order by le limit 30;
6.4.2.2 Average logarithmic word rank for different sources
6.4.2.3 Sources consisting of many / few words with frequency 1
6.4.2.4 Sources with low / high average word length of rare words